In [ ]:
epochs = 10
फेडरटेड लर्निंग हे एक अतिशय रोमांचक आणि अप्सर्जिंग मशीन लर्निंग तंत्र आहे ज्याच उद्दीष्ट असे सिस्टम प्रणाली बनवायचे आहे जे विकेंद्रित डेटावर शिकेल. अशी कल्पना आहे की डेटा त्याच्या उत्पादकाच्या हातात आहे (ज्यास कामगार म्हणून देखील ओळखले जाते), जी गोपनीयता आणि मालकी सुधारण्यात मदत करते आणि हे मॉडेल कामगारांमध्ये सामायिक केले जाते. एक त्वरित अनुप्रयोग म्हणजे आपण मजकूर लिहिता तेव्हा आपल्या मोबाइल फोनवर पुढील शब्दाचा अंदाज लावणे: आपल्याला आपला डेटा प्रशिक्षणासाठी वापरलेला नको असतो - म्हणजे आपले मजकूर संदेश - मध्यवर्ती सर्व्हरला पाठवावे लागते.
फेडरटेड लर्निंगचा उदय डेटा गोपनीयता जागरूकता पसरवण्यासाठी घट्टपणे जोडलेला आहे आणि मे 2018 पासून डेटा संरक्षणची अंमलबजावणी करणारी EU मधील GDPR ने उत्प्रेरक म्हणून काम केले आहे. नियमांची अपेक्षा करण्यासाठी, Apple किंवा Google सारख्या मोठ्या कलाकारांनी या तंत्रज्ञानामध्ये, विशेषत: मोबाइल वापरकर्त्यांच्या गोपनीयतेचे रक्षण करण्यासाठी मोठ्या प्रमाणात गुंतवणूक सुरू केली आहे, परंतु त्यांनी त्यांची साधने उपलब्ध केली नाहीत. Openmined मध्ये आमचा विश्वास आहे की मशीन लर्निंग प्रोजेक्ट घेण्यास इच्छुक असलेल्या कोणालाही अगदी थोड्या प्रयत्नातून गोपनीयता संरक्षणाची साधने लागू करण्यास सक्षम असावे. आमच्या ब्लॉग पोस्टमध्ये नमूद केल्यानुसार आम्ही एका ओळीत डेटा कूटबद्ध करण्यासाठी साधने तयार केली आहेत आणि आम्ही आता आमची फेडरेटेड लर्निंग फ्रेमवर्क रीलिझ केली आहे जी सुरक्षित आणि स्केलेबल मॉडेल तयार करण्यासाठी अंतर्ज्ञानी इंटरफेस प्रदान करण्यासाठी नवीन PyTorch 1.0 आवृत्तीचा लाभ घेते.
या ट्युटोरियलमध्ये आपण PyTorch चा वापर करून CNN ला MNIST वर प्रशिक्षण देण्याचे थेट उदाहरण वापरू आणि आमच्या PySyft लायब्ररीच्या सहाय्याने फेडरेट लर्निंगची अंमलबजावणी करणे किती सोपे आहे हे दर्शवू. आम्ही उदाहरणाच्या प्रत्येक भागावर जाऊ आणि बदललेला कोड अधोरेखित करू.
आपण [आमच्या ब्लॉगपोस्टमध्ये] (https://blog.openmined.org/upgrad-to-federated-learning-in-10-lines) ही सामग्री देखील शोधू शकता.
लेखक:
अनुवादक/संपादक:
ठीक आहे, चला तर मग सुरू करूया!
In [ ]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
आणि PySyft मध्ये विशिष्ट त्यापेक्षा विशेषतः आपण दूरस्थ कामगारांना आलिस
(alice
) आणि बॉब
(bob
) परिभाषित करतो.
In [ ]:
import syft as sy # <-- NEW: import the Pysyft library
hook = sy.TorchHook(torch) # <-- NEW: hook PyTorch ie add extra functionalities to support Federated Learning
bob = sy.VirtualWorker(hook, id="bob") # <-- NEW: define remote worker bob
alice = sy.VirtualWorker(hook, id="alice") # <-- NEW: and alice
आपण शिकण्याच्या कार्याची(learning task) सेटिंग परिभाषित करतो
In [ ]:
class Arguments():
def __init__(self):
self.batch_size = 64
self.test_batch_size = 1000
self.epochs = epochs
self.lr = 0.01
self.momentum = 0.5
self.no_cuda = False
self.seed = 1
self.log_interval = 30
self.save_model = False
args = Arguments()
use_cuda = not args.no_cuda and torch.cuda.is_available()
torch.manual_seed(args.seed)
device = torch.device("cuda" if use_cuda else "cpu")
kwargs = {'num_workers': 1, 'pin_memory': True} if use_cuda else {}
In [ ]:
federated_train_loader = sy.FederatedDataLoader( # <-- this is now a FederatedDataLoader
datasets.MNIST('../data', train=True, download=True,
transform=transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.1307,), (0.3081,))
]))
.federate((bob, alice)), # <-- NEW: we distribute the dataset across all the workers, it's now a FederatedDataset
batch_size=args.batch_size, shuffle=True, **kwargs)
test_loader = torch.utils.data.DataLoader(
datasets.MNIST('../data', train=False, transform=transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.1307,), (0.3081,))
])),
batch_size=args.test_batch_size, shuffle=True, **kwargs)
In [ ]:
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 20, 5, 1)
self.conv2 = nn.Conv2d(20, 50, 5, 1)
self.fc1 = nn.Linear(4*4*50, 500)
self.fc2 = nn.Linear(500, 10)
def forward(self, x):
x = F.relu(self.conv1(x))
x = F.max_pool2d(x, 2, 2)
x = F.relu(self.conv2(x))
x = F.max_pool2d(x, 2, 2)
x = x.view(-1, 4*4*50)
x = F.relu(self.fc1(x))
x = self.fc2(x)
return F.log_softmax(x, dim=1)
प्रशिक्षित कार्यासाठी, डेटा बॅचेस alice
और bob
वितरित केल्यामुळे, आपल्याला प्रत्येक बॅचसाठी मॉडेल योग्य ठिकाणी पाठविणे आवश्यक आहे. नंतर आपण स्थानिक PyTorch करीत असलेल्या सारख्याच वाक्यरचनासह आपण सर्व ऑपरेशन दूरस्थपणे करतो. आपण कार्य पूर्ण केल्यावर, आपल्याला अद्यतनित (updated) केले मॉडेल आणि सुधारणासाठी शोधलेले नुकसान(loss)परत मिळते.
In [ ]:
def train(args, model, device, federated_train_loader, optimizer, epoch):
model.train()
for batch_idx, (data, target) in enumerate(federated_train_loader): # <-- now it is a distributed dataset
model.send(data.location) # <-- NEW: send the model to the right location
data, target = data.to(device), target.to(device)
optimizer.zero_grad()
output = model(data)
loss = F.nll_loss(output, target)
loss.backward()
optimizer.step()
model.get() # <-- NEW: get the model back
if batch_idx % args.log_interval == 0:
loss = loss.get() # <-- NEW: get the loss back
print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
epoch, batch_idx * args.batch_size, len(federated_train_loader) * args.batch_size,
100. * batch_idx / len(federated_train_loader), loss.item()))
चाचणी कार्य बदलत नाही!
In [ ]:
def test(args, model, device, test_loader):
model.eval()
test_loss = 0
correct = 0
with torch.no_grad():
for data, target in test_loader:
data, target = data.to(device), target.to(device)
output = model(data)
test_loss += F.nll_loss(output, target, reduction='sum').item() # sum up batch loss
pred = output.argmax(1, keepdim=True) # get the index of the max log-probability
correct += pred.eq(target.view_as(pred)).sum().item()
test_loss /= len(test_loader.dataset)
print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
test_loss, correct, len(test_loader.dataset),
100. * correct / len(test_loader.dataset)))
In [ ]:
%%time
model = Net().to(device)
optimizer = optim.SGD(model.parameters(), lr=args.lr) # TODO momentum is not supported at the moment
for epoch in range(1, args.epochs + 1):
train(args, model, device, federated_train_loader, optimizer, epoch)
test(args, model, device, test_loader)
if (args.save_model):
torch.save(model.state_dict(), "mnist_cnn.pt")
Et voilà! आपण येथे पोहोचलात, आपण फेडरेटेड लर्निंगचा वापर करून दूरस्थ डेटावर मॉडेलचे प्रशिक्षण दिले आहे!
मला माहित आहे की आपल्या मनात असा प्रश्न आला असणार : सामान्य PyTorch च्या तुलनेत फेडरेटेड लर्निंग करण्यास किती वेळ लागतो?
संगणनाची वेळ प्रत्यक्षात सामान्य PyTorch ची अंमलबजावणीसाठी वापरलेल्या वेळेपेक्षा दुपटीने कमी आहे! अधिक स्पष्टपणे सांगायचे तर, हे 1.9 पट जास्त वेळ घेते, जे आम्ही जोडण्यास सक्षम असलेल्या वैशिष्ट्यांच्या तुलनेत फारच कमी आहे.
आपण निरीक्षण केल्यानुसार, आपण MNIST वरील अधिकृत PyTorch च उदाहरण वास्तविक फेडरेट लर्निंग सेटिंगमध्ये श्रेणीसुधारित करण्यासाठी कोडच्या 10 ओळी सुधारित केल्या.
नक्कीच, आपण विचार करू शकू अशा अनेक डझनभर सुधारणा आहेत. आपण कामगारांना समांतर कार्य करण्यासाठी आणि फेडरेटेड सरासरी कामगिरी करण्यासाठी, केवळ प्रत्येक n
बॅचेसचे केंद्रीय मॉडेल अद्यतनित करणे, कामगारांमधील संप्रेषणासाठी आपण वापरत असलेल्या संदेशांची संख्या कमी करण्यासाठी इत्यादी गणना करू इच्छितो. ही वैशिष्ट्ये आहेत ज्याचावर आम्ही कार्य करीत आहोत. फेडरेटेड लर्निंगला उत्पादनाच्या वातावरणासाठी तयार करण्याचे काम आम्ही करीत आहोत आणि ते प्रसिद्ध होताच आम्ही त्यांच्याबद्दल लिहू!
आपण आता स्वत: हून फेडरेटेड लर्निंग करण्यास सक्षम असावेत! आपण याचा आनंद घेत असल्यास आणि एआय आणि एआय सप्लाय चेन (डेटा) च्या विकेंद्रित मालकीच्या गोपनीयतेच्या संरक्षणाच्या दिशेने चळवळीत सामील होऊ इच्छित असाल तर आपण हे खालील प्रकारे करू शकता!
आमच्या समुदायाला मदत करण्याचा सर्वात सोपा मार्ग म्हणजे फक्त गिटहब(GitHub) रेपो(Repo) तारांकित(Star) करणे! हे आम्ही तयार करीत असलेल्या छान साधनांविषयी जागरूकता वाढविण्यास मदत करते.
आम्ही फेडरेटेड आणि गोपनीयता-संरक्षित लर्निंगबद्दल अधिक चांगल्या प्रकारे समजवण्यासाठी खरोखर चांगले ट्यूटोरियल बनवले आहेत.
नवीनतम प्रगतीवर अद्ययावत राहण्याचा उत्तम मार्ग म्हणजे आमच्या समुदायामध्ये सामील होणे! आपण http://slack.openmined.org येथे फॉर्म भरुन तसे करू शकता.
आमच्या समुदायामध्ये योगदानाचा उत्तम मार्ग म्हणजे कोड योगदानकर्ता बनणे! कोणत्याही वेळी आपण (PySyft GitHub Issues Page) वर जाऊ शकता आणि "Project" साठी फिल्टर करू शकता. हे आपण कोणत्या प्रकल्पांमध्ये सामील होऊ शकता याबद्दल विहंगावलोकन देणारी सर्व उच्च स्तरीय तिकिटे दर्शवेल! आपण एखाद्या प्रकल्पात सामील होऊ इच्छित नसल्यास, परंतु आपण थोडं कोडिंग करू इच्छित असाल तर आपण "good first issues" म्हणून चिन्हांकित गिटहब(GitHub) अंक शोधून आणखी "one off" मिनी-प्रकल्प(mini project) शोधू शकता.
आपल्याकडे आमच्या कोडेबेसमध्ये योगदान देण्यास वेळ नसल्यास, परंतु तरीही आपल्याला समर्थन द्यावयाचे असल्यास आपण आमच्या मुक्त संग्रहात बॅकर देखील होऊ शकता. सर्व देणगी आमच्या वेब होस्टिंग आणि हॅकॅथॉन आणि मेटअप्स सारख्या इतर सामुदायिक खर्चाकडे जातात!
In [ ]: